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摘要 : [目的 /意义 ] 社 交 媒 体 的 出 现 为 医疗 健康 数据 的 收集 提供 了 新 的 途径 ,应 用 自然 语言 处 理 技术 从 社 

交 媒 体 中 抽取 患者 报告 的 ADR( Adverse Drug Reaction ,药物 不 良 反 应 ) 信 号 对 于 改善 药物 不 良 反 应 监测 的 临床 
和 科学 知识 具有 很 大 的 潜力 。 然 而 ,从 社会 媒体 中 提取 患者 报告 的 ADR 信号 仍然 面临 重大 挑战 。 为 此 ,开发 
一 个 利用 高 级 自然 语言 处 理 技 术 从 健康 主题 社交 媒体 中 抽取 ADR 信号 的 研究 模型 。[ 方 法 /过 程 ] 该 模型 首先 
采用 基于 多 词典 源 匹 配 的 方法 ,从 噶 杂 的 社交 媒体 中 识别 医学 实体 ;然后 采用 最 短 依存 路 径 核 函 数 为 基础 的 统 

学 习 方 法 提取 药物 不 良 事件 ;并 利用 药品 安全 数据 库 的 语义 知识 过 滤 药 物 的 治疗 和 适用 症 信息 以 及 否定 的 
= 良 事件 ;最 后 ,对 报告 源 进 行 分 类 别 除 传闻 等 嗓音 信息 。[ 结果 /结论 ] 通 过 收集 糖尿 病 论 坛 上 的 数据 对 
较 型 的 有 效 性 进行 验证 ,结果 显示 该 模型 的 每 一 部 分 都 有 助 于 其 整体 性 能 的 提升 。 
外 关键 词 : 医学 实体 识别 ”药物 不 良 事 件 抽取 健康 社交 媒体 统计 学 习 ”语义 过 注 
加 分 类 号 : 6251 
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它们 的 方法 ”。 社 交 媒体 包含 大 量 患 者 口语 化 的 表 
- 互 


| 、  、 ” 达 , 从 这 种 嗜 杂 的 环境 中 提取 高 质量 的 患者 报告 内 容 
近年 来 , 随 着 互联 网 和 以 Web 2.0 为 基础 的 社交 


Wm a `、“ 、。” ”是 具有 挑战 性 的 。 药 物 不 良 事件 是 由 药物 引起 的 医学 
媒体 的 快速 发 展 , 人 们 获取 健康 信息 的 方式 正 逐渐 发 ”事件 酒 党 在 患者 的 网 络 叙 述 中 ,治疗 信息 和 医学 事件 
华 蛮 化 。 由 过 去 与 医护 人 员 面 对 面 被 动 地 交流 医疗 信 。 吧 


a 经 常 混杂 在 一 起 出 现 ,在 他 们 的 讨论 中 可 能 包含 药物 
息 E 如 今 通过 健康 主题 社交 媒体 主动 搜索 获取 并 分 。 的 治疗 信息 适应 定 信 息 以 及 否定 的 黄 物 不 良 事 件 
主权 康信 息 , 人 们 希望 能 够 参与 到 自己 健康 的 日 常 管 共 品 适应 定 是 药品 使 用 的 基本 常识 是 药物 用 于 治疗 
理 @B。 越 来 越 多 的 患者 愿意 在 互联 网 上 尤其 是 网 络 健 6 公理 的 医学 说 明 。 否 定 的 药物 不 良 事件 是 对 药 
康 社 区 中 ,分 享 他 们 的 诊断 ,治疗 .药物 和 副作用 信息 ， yy 不 良 事 件 之 间 因果 关系 的 在 定 。 社 交 媒 体 上 的 药 
以 及 自己 在 与 疾病 抗争 中 的 情感 经 历 “。 这 使 得 此 类 。 物 不 良 事件 可 能 来 自 患 者 的 真实 经 历 也 可 能 是 科研 
社交 媒体 成 为 独特 和 强大 的 获取 健康 药物 和 治疗 信 。 人 员 的 研究 新 闻 传 半 或 复制 等 信息 这 就 导致 报告 
息 的 重要 来 源 。 患 者 在 社交 媒体 的 自述 ,经 常会 包含 。 i 入 有 大 量 的 噪 言 和 重复 数据 中 ， 凤 1 通过 糖尿 病 
一 些 临 床 医生 可 能 错过 或 忽视 的 医疗 间 题 和 不 良友。 网 络 社区 的 帖子 对 以 上 讨论 的 现象 进行 了 解释 
eA Di ne 从 表 1 列举 的 帖 文 中 可 以 发 现 ,网 络 社区 用 户 在 
各 闭合 了 二 音 的 总 在 ADR 信息 。 生变。 讨论 中 使 用 他 们 偏好 的 医学 保健 语言 ,这 些 语言 不 同 
媒体 被 认为 是 一 种 收集 药物 副作用 和 治疗 效果 的 新 渠 。 二 医学 志 业 术语 例如 编号 为 63828 的 帖子 由 
道 , 它 能 增强 获取 药品 安全 和 治疗 管理 的 主观 要 素 ,为 ee 
临床 实践 提供 重要 见解 。 ， es 
食品 药品 监督 管理 局 的 不 良 事件 报告 系统 ) 中 的 术语 
鉴于 社交 媒体 上 患者 报告 内 容 的 临床 和 科学 价 is 
值 ,研究 人 员 已 经 开始 探索 从 社交 媒体 中 识别 和 提取 : 
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表 1 用 户 在 社交 媒体 上 生成 内 容 的 实例 


帖子 ID 贴 文 内 容 是 否 包含 ADE 报告 源 
9043 I had horrible chest pain [Event] under Actos[ Treatment | ADE 患者 报告 
12200 From what you have said, it seems that Lantus [ Treatment ]has hadsome negative side effects related to de- ADE 传闻 

pression [Event] and mood swings [Event ] 

25139 I never experienced fatigue [ Event] whenusing Zocor [ Treatment] No 患者 报告 
34188 When taking Zocor [ Treatment] ，I hadheadaches [Event] and bruising [ Event] ADE 患者 报告 
63828 Another study of people with multiple riskfactors for stroke [ Event | found thatLipitor [ Treatment | reduced 药品 适用 证 糖尿 病 研 究 


the risk of stroke [ Event] by 26% compared to those taking a placebo, the company said 


中 ,“bruising”( 擦 伤 ) 在 FAERS 中 的 表达 为 “contiusion” 
( 擦 伤 ) ;此 外 ,患者 在 讨论 中 可 能 包含 不 同类 型 的 药 
物 和 不 良 事 件 关系 :例如 在 63828 号 帖子 中 ,笔者 提 到 
了 “swrole" 和 “1ipitor"( 立 普 妥 ) “Diior" 是 降低 中 风 
风险 的 降 脂 剂 ，“stroke” 和 “Lipitor” 在 这 篇 帖子 中 呈现 
的 配药 物 适应 症 的 关系 ,而 不 是 药物 - 不 良 反应 关系 ; 
而 药 9043 号 帖子 中 ,患者 报告 了 在 服用 “hctos”( 艾 可 
扶 三 -种 降 血糖 药 ) 时 有 胸痛 现象 ,呈现 为 药物 不 良 
优 汪 论坛 中 的 信息 还 可 能 来 自 不 同 的 报告 源 , 如 6382 
司 阳 子 是 关于 糖尿 病 的 研究 ,9043 .25139 .34188 号 | 
汇总 患者 亲身 经 历 的 用 药 评论 ,而 12200 号 帖子 为 从 
别 大 那里 听 到 的 传闻 。 


和 


2 ”相关 研究 


"医学 实体 识别 由 在 确定 医疗 实体 对 象 ,如 治疗 和 
药 蝇 等 。 归 功 于 医疗 健康 领域 丰富 的 医学 词典 及 知识 
库 g 以 往 的 许多 研究 都 采用 基于 词典 的 实体 识别 方法 。 
UMES( 美 国 国家 医学 图 书馆 开发 的 一 体 化 医学 语言 系 
统 子 研究 中 常 被 采用 中 ;自发 报告 系统 也 经 常 被 用 来 
作 胃 从 文本 中 提取 治疗 和 不 良 事件 的 数据 源 ;FAERS 
的 医学 术语 常 被 用 于 映射 健康 社交 媒体 的 药物 和 不 良 
事件 实体 ; MedEffect( 加 拿 大 的 药物 不 良 事件 报告 系 
统 ) 也 被 用 来 从 社交 媒体 提取 不 良 事件 “ 。 然 而 ,健康 
社交 媒体 上 用 户 生成 的 保健 用 语 是 不 同 于 医学 专业 术 
语 的 ,网 络 用 户 由 于 个 人 知识 和 偏好 的 差异 ,对 药物 评 
论 的 表达 亦 可 能 是 五 花 八 门 的 。 

从 预 处 理 后 的 数据 中 识别 医学 实体 的 方法 包括 基 
于 规则 的 方法 、 基 于 词典 的 方法 和 基于 统计 学 习 的 方 
法 。 在 实际 应 用 中 通常 会 根据 具体 任务 的 要 求 , 选 择 
某 一 种 或 几 种 方法 以 期 获得 更 好 的 识别 效果 "。S. 
Abeed 等 中 的 文献 调查 显示 ,药物 不 良 反应 词典 和 知 
识 库 一 直 是 利用 社交 媒体 进行 ADR 信号 抽取 广泛 使 
用 的 数据 资源 。 这 些 生物 医学 数据 资源 中 包含 了 
ADR 列表 ,收集 了 从 药品 标签 到 临床 试验 .看 护 者 ,其 
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至 社交 媒体 上 用 户 的 帖子 等 数据 内 容 。 

生物 医学 关系 抽取 技术 已 经 被 用 于 从 自由 文本 中 
鉴别 诸如 基因 -疾病 关系 以 及 和 蛋白质 的 相互 作用 关系 
等 。 药 物 不 良 事件 的 抽取 采用 关系 抽取 技术 来 确定 药 
物 和 事件 之 间 是 否 存在 关系 以 及 关系 的 类 型 (例如 药 
物 -适应 症 关系 或 者 药物 - 不 良 反应 关系 ) 。 药 物 不 
良 反应 关系 的 抽取 方法 可 以 分 为 三 类 :基于 共 现 分 析 
(co-occurrence analysis ) 的 方法 .基于 规则 (rule -based ) 
的 方法 和 基于 统计 学 习 ( statistical learning based ) 的 方 
法 。 对 于 每 种 方法 ,不 同 之 处 在 于 如 何 更 好 地 利用 文 
本 中 的 词汇 .语法 和 语义 信息 。 基 于 规则 的 句法 和 语 
义 信息 抽取 方法 表现 出 较 好 的 性 能 ;基于 统计 学 习 的 
关系 抽取 方法 可 以 从 标注 的 语料库 中 自动 地 学 习 关 系 
模式 ,更 适用 于 大 规模 语 料 的 需求 。 有 监督 的 统计 学 
习 在 实体 关系 抽取 中 占据 主导 位 置 。 其 中 ,基于 核 函 
数 的 实体 关系 抽取 就 是 一 种 有 代表 性 的 方法 。 基 于 核 
函数 的 关系 抽取 方法 在 确定 各 种 生物 医学 关系 如 蛋白 
质 相 互 作用 和 基因 - 疾病 的 关系 时 ,已 显示 出 它 的 优 
势 。P. Thomas 等 采用 复合 核 函数 ,集成 了 学 习 图 形 核 
和 最 短 依存 路 径 核 函数 从 医学 文献 中 提取 药物 - 药物 
相互 作用 关系 ”。 它 们 利用 基于 句法 和 语义 的 信息 ， 
能 够 更 简洁 准确 地 捕获 实体 之 间 的 关系 ,从 而 比 基 于 
寺 征 的 关系 抽取 方法 获得 了 更 好 的 效果 。 这 种 方法 利 
用 核 函 数 可 以 将 多 方面 的 语法 .语义 等 信息 综合 ,最 终 
的 实体 关系 距离 由 多 个 不 同 信息 来 源 的 核 函 数 复合 而 
成 ,从 而 可 以 提高 准确 率 ”。 

社交 媒体 上 大 量 在 线 用 户 的 口语 化 生成 内 容 , 将 
会 导致 大 量 的 稀 玲 性 词汇 特征 集 ,从 而 使 得 基于 特征 
的 关系 抽取 方法 的 性 能 大 幅 降 低 。 然 而 ,健康 社交 媒 
体 的 用 户 讨论 仍然 遵循 一 定 的 语法 和 语义 模式 。 基 于 
核 函数 的 统计 学 习 方 法 借助 数据 之 间 的 句法 和 语义 表 
示 , 可 用 于 从 哮 杂 的 社交 媒体 文本 中 提取 药物 不 良 反 
应 关系 。 


人 六 maV 人 (大 甘 日 工 
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以 往 的 大 多 数 研 究 都 使 用 准确 率 、 召 回 率 和 下 什 
8 标 来 评估 其 性 能 的 优 劣 。 为 了 证 明 来 自 社交 媒体 报 
告 的 药物 不 良 反应 的 价值 ,研究 人 员 对 提取 的 结果 进 
行 了 多 项 分 析 。A. Benton 等 "将 从 社交 媒体 提取 的 
不 良 事件 与 已 记录 的 药物 不 良 事件 进行 比较 ,发 现 与 
记录 的 药物 不 良 事件 相 比 ,从 社交 媒体 中 提取 的 药物 
不 良 事件 可 以 达到 35. 1% 的 准确 率 .77% 的 召回 率 和 
52.8% 的 了 值 ;B，Chee 等 "发现 患 者 的 药物 评论 可 以 
用 来 识别 市 场 上 的 风险 药物 ,并 且 识 别 出 来 的 大 多 数 
风险 药物 都 出 现在 美国 食品 和 药品 监督 管理 局 的 药品 
安全 观察 名 单 上 ;C，Yang 等 '” 认为 健康 社交 媒体 是 
ADR 信号 检测 中 具有 广阔 应 用 前 景 的 重要 数据 源 。 

通过 对 已 有 研究 的 回顾 ,笔者 发 现 基于 医学 词典 
和 本 体 的 医学 实体 抽取 能 够 达到 令 人 满意 的 效果 。 
利用 高 级 的 统计 学 习 进 行 关 系 抽取 的 方法 ,应 用 在 健 
廉 社交 媒体 挖掘 药物 不 良 反应 的 研究 较 少 。 基 于 共 现 
笃 辽 的 药物 不 良 反 应 提取 方法 存在 明显 的 局 限 性 :这 
种 天 法 不 能 很 好 地 捕获 语法 或 语义 信息 ,其 结果 导致 
生子 中 存在 否定 关系 时 ,可 能 提取 的 不 良 反应 关系 
古 钼 误 的 ;提取 的 药物 不 良 事件 可 能 与 药物 的 适应 症 
相配 混 淆 ; 当 多 个 药物 不 良 反应 实体 同时 出 现在 同一 
代 辣 子 中 时 ,这 种 方法 无 法 准确 地 捕获 药物 与 不 良 反 
应 泌 间 的 关系 。 此 外 ,健康 社交 媒体 中 有 许多 来 自 第 
这 新 账号 的 新 闻 .研究 .故事 等 的 重复 报告 ,这 些 内 容 
会 宪 生 宛 余 和 噪音 ,从 而 降低 社交 媒体 识别 ADR 信和 号 


二 


媒体 作为 一 个 日 受 瞩 目的 开放 平台 ,用 户 通过 Web 社 
区 可 以 自由 地 说 出 自己 的 问题 和 诉求 ,其 价值 还 远 远 
没有 得 到 充分 的 挖掘。 

本 文 提出 的 研究 问题 可 以 描述 为 :开发 一 个 集成 
和 可 扩展 的 研究 模型 用 于 从 健康 主题 社交 媒体 中 挖掘 
患者 报告 的 ADR 信号 ;从 嘲 杂 的 健康 主题 社交 媒体 的 
用 户 讨论 中 识别 出 真正 的 患者 报告 内 容 ;与 基准 方法 
相 比 ,统计 学 习 方法 需要 增强 健康 相关 的 语义 过 滤 来 
改善 药物 不 良 事件 提取 的 结果 。 


3 融合 统计 学 习 和 语义 过 滤 的 ADR 


信号 抽取 模型 

鉴于 利用 社交 媒体 进行 药物 不 良 反 应 监测 的 研究 
价值 以 及 当前 从 用 户 生成 内 容 中 提取 药物 不 良 事件 的 
障碍 ,笔者 提出 了 一 个 从 健康 主题 社交 媒体 中 抽取 种 


者 报告 的 ADR 信号 的 研究 模型 ,在 这 个 模型 中 ,设计 
了 一 个 基于 多 词典 源 的 医学 实体 抽取 方法 , 它 集成 了 
多 个 医学 词典 和 网 民 保健 用 语 来 解释 用 户 生成 的 口语 
化 的 医学 健康 语言 。 此 外 ,该 模型 使 用 基于 最 短 依存 
路 径 核 函 数 的 统计 学 习 方法 和 基于 医学 知识 库 信 息 的 
语义 过 滤 方 法 进行 药物 不 良 事件 关系 的 提取 。 这 种 方 
法 利用 现 有 的 医学 知识 和 统计 学 习 技 术 , 可 以 显著 地 
增强 提取 的 不 良 事件 的 准确 率 。 为 了 将 真实 的 患者 报 
告 从 第 三 方 转载 中 识别 出 来 ,还 对 报告 来 源 进行 分 类 ， 
以 识别 患者 真正 报告 的 药物 不 良 事 件 。 该 模型 包括 数 
据 的 预 处 理 .基于 多 词典 源 的 医学 实体 识别 .基于 最 短 
依存 路 径 核 函数 和 语义 过 滤 的 药物 -不 良 事 件 关 系 抽 
取 、 以 及 对 报告 源 进行 分 类 4 个 组 成 部 分 ,如 图 1 所 
修 : 


医学 实体 识别 
0 药物 -不 良 事件 
UMLS 标 准 医 学 关系 抽取 
实体 抽取 
r = 统计 学 习 
Vi | 词汇 过 滤 | | /| 
] 语义 过 滤 
CHYV 用 户 健康 
词汇 扩展 


图 1 面向 健康 主题 社交 媒体 的 ADR 信号 抽取 模型 


3.1 数据 收集 及 预 处 理 

数据 预 处 理 通常 是 对 数据 进行 清洗 和 标准 化 ,为 
后 续 分 析 准 备 原始 数据 。 数 据 预 处 理 阶段 包括 两 个 步 
又 :文本 清洗 和 断 句 。 基 于 正则 表达 式 , 去 除 URL、 重 
复 的 标点 符号 和 文本 中 的 个 人 身份 信息 ,如 电子 邮件 
地 址 ,个 人 账号 电话 号 码 , 吻 除 掉 无 关 信息 的 同时 保 
留 有 用 信息 以 确保 迭代 过 程 的 速度 和 结果 的 质量 。 笔 
者 提出 的 方法 集中 在 句子 层面 信息 的 提取 和 处 理 ， 
此 ,使 用 自然 语言 处 理工 具 OpenNLP 对 每 篇 贴 文 进行 
断 句 。OpenNLP 提供 最 新 的 基于 机 器 学 习 的 句子 边界 
检测 算法 ,利用 它 将 怜 取 的 帖 文 分 割 成 独立 的 句子 。 
3.2 ”基于 多 词典 源 的 医学 实体 识别 

从 嘲 杂 的 用 户 生成 内 容 中 提取 医疗 实体 是 一 件 具 
有 挑战 的 任务 。R. Leaman 等 所 基于 词典 方法 的 研究 
被 证 明 是 表现 最 佳 的 医疗 实体 识别 系统 。 基 于 词典 的 
方法 依赖 于 现 有 的 词典 ,通常 是 基于 字符 串 匹 配 或 相 
似 度 计算 从 自由 文本 中 识别 药物 和 不 良 事 件 实体 。 这 
种 识别 方法 的 性 能 取决 于 底层 参照 词典 的 全 面 性 及 相 
似 度 算法 的 优 劣 。 笔 者 将 利用 UMLS 、FEARS 和 CHV 
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多 词典 源 从 社交 媒体 文本 中 抽取 药 名 和 药物 不 良 事件 
实体 。 
3.2.1 基于 UMLS 的 标准 医学 实体 抽取 MetaMap 
是 一 个 链接 美国 国家 医学 图 书馆 的 java API, 用 于 从 健 
康 社交 媒体 识别 UMLS 医学 概念 。 目 前 ,UMLS 有 135 
种 语义 类 型 ,这 些 类 型 被 进一步 抽象 成 15 个 语义 组 ， 
如 “Chemicals and Drugs” “Genes & Molecu- 
等 。 通 过 配置 MetaMap, 识 别 属于 
"语义 组 的 药 名 实体 和 属于 “Dis- 
orders” 语义 组 的 药物 不 良 事件 实体 。 首先 通过 
MetaMap 鉴别 患者 评论 中 与 标准 医学 词典 UMLS 匹配 
的 医学 实体 。 
3.2.2 de a a 
“ Chemicals and Drugs ”语义 组 以 及 “ Disorders” 语 义 组 
的 绽 果 中 可 能 包含 一 些 错 误 的 正 例 信息 。 例 如 ,在 论 
声 诗 论 中 的 食品 和 配方 成 分 通常 被 认定 属于 * Chemi- 
cn Drugs ”语义 组 ;常见 J 如 “find” 和 “have” 
可 能 被 提取 为 “Disorders” 语 义 组 。 为 了 避免 这 些 问 
用 FDA 的 FAERS 对 从 MetaMap 提取 的 药 名 和 
不 约束 作 名 进行 第 选 剔除 那些 未 在 FEARS 中 出 现 的 
区 池 实 体 名 , 竺 作 进 一 步 分 析 。 
基于 CHYV 的 网 民 保健 用 语 扩 充 网络 健康 社 
区 中 患者 讨论 的 医学 问题 不 同 于 医学 文献 ,论坛 中 的 
总 生成 内 容 通 常 包含 用 户 偏好 的 医学 词汇 和 描述 性 


“ Disorders” 


lar Sequences” 


“Chemicals and Drugs” 


及 语言 知识 库 的 语义 信息 过 滤 方 法 来 识别 药物 不 良 事 
件 。 
基于 最 短 依存 路 径 核 函数 的 实体 关系 抽取 方法 ， 
首先 以 句子 为 单位 , 列 出 句 中 的 所 有 实体 对 ,为 每 一 实 
体 对 建立 一 个 依存 树 。 依 存 树 描述 了 句子 中 实体 间 的 
语法 关系 ,如 主语 和 它 所 文 配 动词 的 依存 关系 ,形容 词 
和 它 所 修饰 名 词 的 依存 关系 。 然 后 基于 依存 树 设 计 核 
函数 ,通过 核 函数 计算 实体 关系 的 距离 ,最 后 用 支持 向 
量 机 将 数据 分 类 。 
基于 最 短 依存 路 径 核 函数 的 药物 -不良 事件 关系 
抽取 可 以 确定 一 个 句子 中 的 药物 和 医学 事件 是 否 存 在 
关系 。 本 文 的 研究 模型 中 开发 了 一 个 基于 最 短 依存 路 
径 核 函数 的 统计 学 习 方 法 。 最 短 依存 路 径 核 函 数 在 识 
别 各 种 关系 (如 基因 相互 作用 和 药物 相互 作用 等 ) 方 
面 已 显示 出 它 的 优势 ”"。 笔 者 将 利用 最 短 依 存 路 径 
核 函 数 和 支持 向 量 机 (SVM) 从 药物 不 良 反 应 相关 的 帖 
子 中 获得 学 习 模 式 提取 药物 不 良 事件 。 基 于 最 短 依存 
路 径 核 函数 的 药物 不 良 事件 关系 抽取 方法 主要 包括 特 
征 生成 , 核 函 数 和 分 类 三 个 部 分 ,如 图 2 中 上 半 部 分 所 


未 : 


FF 到 


文案 ， 为 了 更 全 面 准确 地 了 解 社交 媒体 中 的 患者 讨论 


内 容 ， 笔者 集成 网 民 保健 用 语 ( Consumer Health Vocab- 
ui, CHYV) 作 为 词典 源 ,扩展 更 为 丰富 的 在 线 用 户 表 
达 。CHV 中 包含 47 505 个 UMLS 标准 医学 术语 和 对 
应 的 127 081 个 用 户 偏好 词汇 。 对 前 面 保留 下 来 的 每 
一 个 医学 实体 ,查询 CHV 得 到 其 对 应 的 用 户 偏好 词 
汇 , 这 些 偏好 词汇 之 前 是 无 法 被 MetaMap 识别 的 ,然后 
利用 这 些 用 户 偏好 术语 来 检索 患者 评论 数据 集 ,以 扩 
医学 实体 的 抽取 。 将 网 络 健康 社区 中 提 及 的 用 户 偏 
好 词汇 集成 ,进一步 扩充 了 抽取 的 医学 实体 集 。 
3.3 ”基于 最 短 依存 路 径 核 函 数 的 药物 不 良 事 件 关 系 
抽取 

网 络 健康 社区 中 患者 讨论 的 药物 不 良 事件 不 同 于 
生物 医学 文献 或 临床 笔记 ,这 些 讨 论 通常 包含 更 多 非 
正式 的 和 口语 化 的 表达 ,这 需要 医学 知识 和 复杂 的 语 
言 技 术 进 行 解析 。 通 过 前 文中 对 生物 医学 关系 抽取 研 
究 的 回顾 ,结合 关系 检测 的 统计 学 习 方法 和 基于 医学 


闸 之 
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ERS 的 药 
症 标 记 


语义 模板 基于 规则 的 分 类 


2 药物 -不 良 事件 关系 抽取 过 程 


3.3.1 特征 生成 “网络 健康 社区 中 患者 谈论 的 药物 
不 良 事件 通常 包含 大 量 的 口语 化 表达 ,由 于 数据 的 稀 
玻 性 ,以 词汇 和 距离 为 特征 的 统计 学 习 效果 不 令 人 满 
意 。 然 而 ,患者 对 药物 不 良 事 件 的 叙述 仍然 遵循 某 些 
句法 和 语义 规则 ,因此 建议 从 句子 依存 解析 树 中 提取 
句法 和 语义 特征 来 表示 实例 。 依 存 解析 基于 句法 关系 
生成 词 到 词 的 链接 ,它们 表示 句子 中 词汇 间 的 语法 和 
语义 信息 。 在 依存 解析 树 中 ,句法 依存 性 会 显示 在 树 
的 层次 结构 中 ,语义 依存 性 会 在 链接 的 方向 中 显示 。 
采用 Stanford Parser 进行 依存 句法 解析 从 依存 者 到 支 
配 者 的 语法 关系 。Stanford Parser 运用 上 下 文 无 关 文 
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法 和 词汇 化 依存 句法 分 析 , 生 成 依存 树 中 各 成 分 之 间 
的 依存 关系 。 图 3 是 一 个 句子 的 依存 关系 树 。 在 这 个 
句子 中 ,“nausea” 是 不 良 事件 实体 ,“ Byetta” 是 治疗 糖 
尿 病 的 一 种 药物 。 图 中 示 出 了 词 间 的 语法 关系 。 例 
如 ,“nausea” 是 “gotten” 的 直接 对 象 , 因 此 它们 具有 语 
法 关系 “dobj”。 在 这 种 情况 下 ,“ gotten” 是 支配 者 ， 
“nausea” 是 依存 者 。 


gotten 
Ee 、 dobj prep 
Has 加 可 Nausea from 


amod pobj 


| 图 3 一 个 句子 的 依存 树 表示 实例 
名 依存 树 的 大 部 分 是 与 句子 中 的 药物 和 医疗 状况 关 


么 开关 的 。 之 前 已 有 研究 表明 ,依存 树 在 确立 两 个 实 
依 这 问 关系 的 贡献 几乎 完全 集中 在 其 上 的 两 个 实体 之 
pe teeta rea 
伐 信 关系 中 的 最 短路 径 ( 最 短 依存 路 径 ) ,提出 算法 从 
做 肖 全 中 抽取 两 个 实 We 
到 中 岗 在 依存 树 中 搜索 从 医疗 事件 到 药物 治疗 的 最 短 
路 @， 不 仅 捕获 单词 还 包括 路 径 上 依存 关系 的 方向 。 
最 短 依存 路 径 抽 取 的 过 程 如 伪 码 1 所 示 : 
SW 1: 

“KG 阁 入 :一 个 关系 实例 i, 一 对 相关 的 药物 和 不 良 事 
CS R(drug, event) = True ,依存 图 7 
_C 答 出 :路径 ,从 事件 到 药物 的 最 短 依存 路 径 
te, 7) 


. if drug event. dependents( ) then 


| 
mul 
一 、 
ES 


. Pathe— |event. <—,drug! 
. else 
.Path «—|event| ,End «| drug| ,Head «<—|event|, 


Tail 一 | drug! 


if drug Head . dependents( ) then 


Head <— Head. governor 


2 
3 
4 
| 
5. whileHead ATail. governor do 
6 
7 
8 
9 


Path*e— Path + |—. Head,<— ,drug| 
else 
10. Head。 Head. governor 
11. Pathe— Path + |—. Head 


12. if event Tail. governor. dependents( ) then 
13. Tai l<— Tail. governor 


14. End<*— {event,—,Tail,*—| + End 


15. else 
16. Tail <— Tail. governor 
17. End < |Tail,e| + End 
18. Pathe— Path + | 二 + End 
19. return path 
3.3.2 语法 和 语义 类 映射 ”为 了 增加 抽取 方法 的 鲁 


棒 性 ,将 路 径 上 的 单词 进行 词性 标注 (POS tags ) 来 扩 
展 最 短 依存 路 径 。 在 对 句子 进行 浅 层 句法 分 析 后 , 采 
用 Stanford CoreNLP 软件 包 抽取 词性 信息 并 进行 标注 ， 
利用 Stanford Penn Tree Bank guidelines 生成 词性 标注 ; 
语义 类 型 (事件 和 药物 治疗 ) 将 被 标记 于 最 短路 径 的 
两 端 。 表 2 列 出 了 数据 集中 涉及 的 词性 标注 。 

表 2 词性 标注 注释 


Np 


Part -of -Speech (POS) tags 解释 

CC Conjunction (连词 ) 

CD Cardinal number( 基数 ) 
DT,PDT Determiner( 限定 词 ) 

IN Preposition ( 介词) 
JJ,JJR,JS Adjective( 形容词 ) 


NN, NNS, NNP, NNPS Noun( 名 词 ) 


PRP ,PRPS Pronoun( 代词 ) 
RB,RBR ,RBS Advemb( 副 词 ) 

RP Particle( 小 品 词 ) 
UH Interjection( 感叹 词 ) 


VB,VBD,VBG,VBN,VBZ,VBP Verb( 动 词 ) 
Wh-words( 特殊 疑问 词 ) 


EX,FW,LS,MD ,SYM 其 它 


WDT,WP,WPS,WRB 


句法 分 析 树 中 的 节点 定义 匹配 模式 与 核 函数 。 其 
中 ,匹配 模式 反映 两 个 节点 的 词性 和 特征 是 否 匹 配 ; 通 
过 核 函 数 进行 关系 实例 的 匹配 与 相似 性 计算 ,从 而 得 
出 两 个 实体 之 间 的 关系 。 关 系 实例 的 特征 表示 可 以 定 
义 为 路 径 上 所 有 元 素 的 笛 卡 尔 积 。 图 3 中 示例 句子 的 
特征 表示 为 如 下 等 式 。 原 始 句子 可 以 以 一 个 序列 表示 
为 不 = jyxyxayxiyd | 其中，x = {Nausea, NN， 
= | 一 ,x = |gotten, VBD ,Verb| ,x, = 


Noun, Event | ,x, 


{| ,xs = | Byetta, NN,Noun,Treatment| 。 


Nausea Byetta 
gottten 
NN NN 
x| 一 ] x| VED |x[ 一 ] x 
Noun Noun 
Verb 
Event Treatment 


3.3.3 ”最 短 依存 路 径 核 函 数 ” 基 于 核 函 数 的 方法 可 
以 利用 多 种 不 同 的 数据 组 织 形式 表示 实体 关系 。 在 计 
算 关系 之 间 的 距离 时 ,不 再 使 用 特征 向 量 的 内 积 而 是 
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使 用 核 函 数 。 核 函数 在 高 维度 特征 空间 中 隐 式 地 计算 
对 象 的 特征 向 量 的 点 积 ,也 就 是 说 ,在 许多 情况 下 不 用 
举 出 所 有 的 特征 也 可 以 计算 出 它们 所 在 位 置 共同 特 
征 的 数量 乘积 。 统 计 学 习 方 法 依赖 于 核 函 数 找到 一 个 
超 平面 将 正 实 例 与 负 实例 分 离 。 对 于 最 短 依存 路 径 核 
函数 ,如 果 % =xix2xax4 .xn =yy2y3y7 Ys 是 两 个 
关系 实例 ,其 中 x, 表示 对 应 于 位 置 i 的 特征 集合 , 核 函 
数 的 定义 如 公式 (1): 


0 mn 

TI- Cx;,y;) 
C(xi,y;) = 1xNnyl 是 x; 和 y; 之 间 的 共同 特征 的 
数量 。 两 个 关系 实例 是 否 具有 相同 的 关系 类 型 ,可 以 
通过 核 函 数 计算 得 出 。 最 短 依存 路 径 核 函数 的 伪 码 描 


Kx)=| 公式 (1) 


m=n 


命 入 :关系 实例 x =x xo…% 和 = 
偷 出 :K(x,y) ,x 与 y 的 相似 性 得 分 

卡 又 :最 短 依存 路 径 核 聘 数 (x, y) 

. If mz#n then 

K(x, y)*—0 


二 


else 
whilei<m do 


K(x, y)*—K(x, y) my 


OO Un 人 DW DD 一 


returnK(x, y) 

[5 举例 说 明 通 过 核 函 数 进行 关系 实例 的 匹配 与 相似 
性 畦 算 ,如 一 个 关系 实例 * = {When this happens, the 
ba action of your Lantus could cause hypoglycemia. 上 |， 
笠 轴 天 未 二 荆 poglyoonia, Nn, Naw, Boentd 
{=—>| , {cause, VB, Verb} , |<), {action, NN, Noun|, 
| 一 ,| Lantus, NN,，Noun，Treatment| ] ; 另 一 个 关系 
实例 y= |Bui, now T’ ve read a few posts in this thread 


that indicate depression as a possible side effect from Lan- 
tus. | 可 以 表示 为 y = [| depression, NN, Noun, FE- 
vent| ,|—}|, |indicate, VBP, Verb| ,|<«—}| ,|effect, NN, 
Noun| ,| | ,|Lantus, NNP, Noun，Treatment| ]。 核 
函数 K(x, y) 的 计算 为 位 置 i 中 x; 和 y; 共同 特征 的 数 
量 乘 积 。 本 例 中 ,K(x, y)=3*1*1*]1*2*1]*3= 
18。 根 据 这 个 结果 ,可 以 得 出 两 个 关系 实例 x 和;y 具 
有 非常 高 的 相似 性 得 分 。 如 果 关 系 实例 x 具有 某 种 药 
物 -事件 关系 , 则 关系 实例 y 很 可 能 也 包含 该 药物 - 
事件 关系 。 

3.3.4 分 类 实体 关系 检测 中 的 分 类 旨 在 将 具有 某 
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种 关系 特征 的 关系 实例 与 不 具备 该 种 关系 的 实例 区 分 
开 。 采 用 直 推 式 支 持 向 量 机 (TSVM) 用 于 关系 检测 的 
分 类 。SVM -light 是 支持 直 推 式 支 持 问 量 机 的 开源 软 
件 包 , 在 之 前 的 研究 中 已 被 采用 并 取得 较 好 的 效果 ,更 
重要 的 是 它 还 具有 用 户 自 定 义 核 函 数 的 功能 ”。 通 
过 SVM -light 自 定义 最 短 依存 路 径 核 函数 ,根据 最 短 依 
存 路 径 核 函数 训练 TSVM 分 类 器 ,然后 应 用 这 个 分 类 
器 来 识别 药物 - 事件 关系 的 实例 。 详 细 过 程 如 伪 码 3 
所 示 : 

伪 码 3: 

输入 :所 有 关系 实例 7 每 个 实例 至 少 包 含 一 对 药物 和 事件 

输出 :是 否 一 对 药物 和 不 良 事件 是 相关 的 

R (drug, event) = True or False 

步 又 :统计 学 习 算法 (drug, event) 
1. 对 于 每 一 对 药物 和 事件 ,R (drug, event) do 
2. 生成 包含 R(drug, event) 实 例 i 的 依存 图 T 
3. Path 一 最短 依 存 路 径 抽 取 民 (i, drug, event, 7) 
4. Feature*- 语 法 与 语义 类 匹配 (Path) 
5 
6 


. 将 关系 实例 分 为 训练 集 和 测试 集 
. 在 训练 集 上 利用 最 短 依 存 路 径 核 函 数 训练 一 个 
SVM 分 类 器 C 
7. 在 测试 集 上 使 用 分 类 器 C 将 关系 实例 分 为 两 类 : 
R (drug, event) = True 


R (drug, event) = False 

3.4 语义 过 滤 

最 短 依存 路 径 核 函 数 可 以 检测 到 相关 的 药物 和 不 
良 反应 关系 ,然而 ,该 方法 还 不 能 精确 地 捕获 句子 中 的 
否定 关系 ,也 不 能 将 药物 适应 症 与 药物 不 良 反 应 区 分 
开 。 已 有 的 研究 都 忽视 了 过 滤 掉 药品 适应 症 和 否定 的 
药物 不 良 反应 进行 分 析 的 重要 性 ,导致 抽取 的 药物 不 
良 事件 准确 率 偏 低 。 为 了 解决 这 个 题 ,笔者 采用 一 个 
语义 过 滤 方 法 ,基于 药品 安全 数据 库 的 语义 知识 ,过 滤 
掉 药品 适应 症 信息 ,并 利用 否定 检测 工具 中 的 规则 过 
滤 掉 否定 的 药物 不 良 反 应 信息 ( 见 图 2 中 下 半 部 分 所 
示 )。 
3.4.1 基于 FAERS 的 药物 适用 症 标 记 患者 在 社区 
中 分 享用 药 经 历 或 评论 某 种 药物 时 ,不 可 避免 的 会 提 
到 用 药 原 因 或 药物 的 适应 症 。 比 如 药品 Metoprolol 中 
的 一 条 评论 : “J use this primarily for my hypertension。” 
这 人 句 话 表达 的 意思 中 ,“ hypertension” 是 用 药 的 原因 ,而 
不 是 Metoprolol 的 不 良 反 应 。 由 于 药物 适应 症 是 规范 
化 的 ,并 且 在 药品 安全 数据 库 ( 例 如 FAERS) 中 有 详细 
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的 记录 ,因此 ,从 FAERS 中 获取 药物 适应 症 知识 并 形 
成 模板 ,利用 MetaMap 从 FAERS 的 适应 症 描述 中 识别 
出 相关 的 生物 医学 实体 ,将 混杂 在 药物 不 良 事 件 中 的 
药品 适应 症 信息 过 滤 掉 。 
3.4.2 基于 NegEx 的 否定 药物 不 良 事件 过 滤 ”对 于 
否定 药物 不 良 事 件 的 检测 ,采用 基于 语言 规则 的 否定 
检测 工具 NegEx。NegEx 是 一 个 自然 语言 处 理 系统 , 曾 
用 于 出 院 小 结 中 否定 的 医疗 事件 的 检测 。 之 前 已 有 利 
用 NegEx 标注 生物 医学 文本 的 研究 ,并 从 出 院 记 录 
中 识别 出 医疗 事件 "i。 语 义 过 滤 过 程 的 伪 码 描述 如 
下 六 

伪 码 4: 

输入 :具有 一 对 相关 药物 和 事件 的 关系 实例 i 
R (drug, event) = True 
偷 出 :T(drug，event) ,drug 与 event 的 关系 类 型 
【步骤 :语义 过 滤 算 法 (drug ，eoenl 
0 .if drug FAERS. pe ) then 


1 

2. indicationse—FAERS. indication( drug) 
3. if event indications then 

4. retur 7T( drug ,event ) = 药物 适用 症 
5. for rulee NegEx do 
6 
7 
8 


202308.00: 


. if instance i matches rule then 


加 


.return 7T( drug ,event) = 否定 的 药物 不 良 事 件 


V 


. else 


>< 9. return T( drug ,event) = 药物 不 良 事件 
3. 纪 报告 源 分 类 

_ 它 为 了 减少 患者 报告 的 药物 不 良 反应 中 的 噪声 和 元 
余 6 征用 报告 源 分 类 过 滤 那 些 不 依赖 于 患者 实际 体验 
的 药物 不 良 事件 报告 。 网 络 健康 社区 中 会 出 现 一 些 来 
自 第 三 方 账 号 的 与 药物 不 良 反应 相关 的 新 闻 故事 、 传 
说 等 复制 或 转载 消息 ,这 些 消息 不 是 患者 实际 的 药物 
不 良 反 应 体验 ,之 前 的 健康 社交 媒体 研究 没有 关注 过 
这 个 问题 的 解决 。 基 于 对 已 有 研究 的 回顾 发 现 , 文 本 
分 类 技术 可 以 有 效 地 识别 雅虎 问答 中 医学 保健 专业 人 
员 发 布 的 医疗 健康 帖子 ,还 能 够 从 推 文中 识别 出 吸毒 
者 ,这 些 任务 接近 于 从 网 络 健康 社区 识别 患者 实际 经 
历 的 药物 不 良 事件 ” ,基于 统计 学 习 的 分 类 技术 可 以 
帮助 从 社交 媒体 中 过 滤 掉 这 些 噪音 数据 。 

为 了 对 社交 媒体 中 药物 不 良 事 件 的 报告 来 源 进行 
分 类 ,采用 基于 特征 的 分 类 模型 来 区 分 患者 的 报告 和 
传闻 ,利用 词 袋 (Bag of Words,BOW ) 特征 和 直 推 式 支 
持 向 量 机 (Transductive Support Vector Machine ,TSVM ) 


进行 分 类 。 采 用 词 袋 特征 对 数据 集中 的 新 闻 研究 、 传 
闻 复制 等 报告 源 进 行 特征 选择 ,以 区 分 患者 实际 经 历 
的 药物 不 良 事件 和 传闻 。TSVM 利用 已 标注 的 和 未 标 
注 的 数据 构建 模型 ,以 一 组 小 规模 的 已 标注 数据 在 未 
标注 的 数据 中 进行 直 推 式 推理 。 


4 ”实验 及 结果 分 析 


4.1 数据 集 及 预 处 理 

像 糖尿 病 和 心脏 病 等 慢性 疾病 ,常常 依赖 于 患者 
的 自我 管理 。 许 多 在 线 健康 论坛 的 出 现 ,为 慢性 疾病 
患者 提供 了 一 个 可 以 匿名 交流 的 平台 ,在 这 里 患者 可 
以 咨询 问题 ,获取 知识 和 分 享 自己 面 对 疾 病 治疗 中 的 
喜 息 哀乐 。 本 研究 中 的 实验 数据 集 来 源 于 美国 著名 的 
糖尿 病 社区 Diabetes Forums , 论坛 界面 如 图 4 所 示 。 
Diabetes Forums 是 一 个 大 型 的 糖尿 病 支 持 在 线 社区 ， 
拥有 超过 50 000 的 注册 用 户 , 网 站 上 的 大 多 数 用 户 是 
糖尿 病 患 者 ,还 有 一 些 是 糖尿 病 护 理 人 员 。 社 区 汇聚 
了 关于 糖尿 病症 状 治疗 ,监测 .饮食 和 研究 等 的 最 新 
消息 和 讨论 。 


Create Acce 


Home Forums Chat Galry Bbgs Took Whet'sNew? 


图 4 Diabetes Forums 界面 


使 用 八 爪 鱼 采 集 器 疏 取 Diabetes Forums 上 从 2009 
年 1 月 1 日 至 2015 年 12 月 31 日 的 67 444 篇 贴 文 , 由 
于 本 研究 集中 在 句子 层面 信息 的 提取 和 人 处理, 使 用 自 
然 语言 处 理工 具 OpenNLP 对 每 篇 贴 文 进行 断 句 后 得 
到 42 355 个 句子 。 
4.2 评价 标准 

采用 标准 的 统计 学 习 和 文本 分 析 评 估 指 标 :准确 
率 、 召 回 率 和 了 值 评估 框架 的 性 能 ,这 些 评 价 指标 已 被 
广泛 应 用 于 信息 抽取 和 健康 社交 媒体 的 研究 。 

共 现 分 析 方 法 由 于 其 简单 易 用 常 被 用 于 抽取 药物 
不 良 反 应 关系 ,因此 其 它 改 进 的 方法 常常 以 该 方法 为 
基准 进行 对 比 。 共 现 分 析 基 于 医学 实体 在 文本 中 出 现 
的 概率 来 识别 它们 之 间 的 关系 。 这 种 方法 假设 如 果 两 
个 医学 实体 在 一 定 范围 内 被 同时 提 到 , 则 它们 之 间 存 在 
潜在 的 生物 医学 关系 。 将 本 文 提出 的 框架 与 共 现 分 析 
方法 进行 比较 ,评估 本 文 方法 抽取 ADR 信号 时 的 表现 。 
4.3 结果 分 析 
4.3.1 医学 实体 识别 


首先 ,利用 MetaMap 从 健康 社 
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交 媒 体 数据 集中 识别 UMLS 医学 概念 ,然后 利用 FAE- 
RS 进行 筛选, 剔 除 那些 未 在 FEARS 中 出 现 过 的 医学 
实体 名 ,最 后 对 前 面 保留 下 来 的 每 一 个 医学 实体 ,查询 
CHYV 得 到 其 对 应 的 用 户 偏 好 词汇 ,这 些 偏好 词汇 之 前 
未 被 MetaMap 识别 ,用 这 些 用 户 偏好 术语 检索 患者 评 
论 数 据 集 ,以 扩展 医学 实体 的 抽取 。 表 3 展示 了 应 用 
本 文 方法 识别 的 医学 实体 结果 。 
表 3 医学 实体 识别 效果 


Precision Recall Fl 
了 字体 类 刑 
方法 实体 类 型 (%) (9%) (9 
本 文 的 方法 药物 92.5 87.1 89.7 
医学 事件 86.5 78.7 82.5 


”结果 显示 ,利用 本 文 方法 进行 药物 实体 提取 的 
全 验 值 达到 90% ,医学 事件 提取 的 下 检验 值 达到 80% 
绑 旧 。 较 好 的 性 能 表现 主要 归功 于 将 网 民 保 健 用 语 、 
基 丰 知识 的 过 滤 和 FAERS 药物 安全 数据 库 多 数据 源 
的 缩合 。 此 外 ,由 于 糖尿 病 论坛 讨论 的 药物 和 医学 事 
件 禾 是 与 糖尿 病 相 关 的 ,因而 与 那些 具有 不 同 背 景 、 

书 题 讨论 的 其 它 健康 社区 相 比 ,通用 术语 的 一 致 性 


更 旬 , 这 个 原因 也 会 导致 更 高 的 性 能 结果 。 


中 通过 对 实验 结果 的 分 析 可 以 发 现 ,药物 实体 识别 
的 铅 误 主要 产生 于 药 名 的 拼写 错误 和 简称 ;医学 事件 
实 全 识别 比 药物 实体 识别 表现 出 更 低 的 性 能 ,原因 在 
括 疾 学 事件 识别 的 主要 错误 来 源 于 患者 对 医学 事件 更 
多 的 模糊 描述 。 例 如 ,患者 描述 “hypo-symptoms” 和 “a 
low 都 指 代 hypoglycemia( 低 血 糖 ) ,而 在 实际 抽取 过 程 
中 名 无 法 将 这 些 模糊 的 描述 识别 出 来 。 为 了 进一步 提 
高 性 能 ,需要 应 用 更 先进 的 机 器 学 习 命名 实体 标注 器 。 
4.3.2 药物 不 良 事件 关系 抽取 ”为 了 进行 药物 -不 良 反 
应 关系 检测 ,从 数据 集中 随机 抽取 400 个 句子 ,本 文 的 广 
法 专注 于 确定 同一 句子 中 的 药物 和 医疗 事件 关系 ,而 同一 
帖子 中 跨 句 子 间 的 药物 与 医疗 事件 关系 不 在 本 研究 之 列 。 
基于 现 有 知识 库 中 的 信息 和 临床 专家 的 建议 ,根据 
前 文 方法 对 这 些 句子 进行 内 容 编码 标注 。 句 子 中 的 每 一 
对 药物 和 医疗 事件 被 看 作 是 一 个 关系 实例 。 由 两 名 研究 
人 员 对 这 些 关 系 实例 进行 标注 , 当 两 者 出 现 不 同意 见 时 交 
由 第 三 方 裁决 。 标 注 的 关系 实例 统计 信息 如 表 4 所 示 : 
表 4 标注 数据 集中 的 药物 和 事件 关系 统计 


关系 类 型 
< 自 惠 一 一 一 不 存在 关系 总 计 
药物 不 良 事件 ”药物 适用 症 ”否定 的 药物 不 良 事 件 
155 77 18 150 400 
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为 了 证 明 本 文 方法 的 有 效 性 ,与 基于 共 现 分 析 的 
药物 不 良 事 件 提 取 方 法 进行 比较 。 借 鉴 文献 [11|] 的 
研究 ,如 果 一 种 药物 与 某 种 药物 不 良 事件 在 一 篇 帖子 
中 同时 出 现 20 次 及 以 上 , 则 被 视 为 共 现 。 

笔者 比较 了 共 现 分 析 方 法 (C0) 与 基于 统计 学 习 
的 方法 (SL) 以 及 本 文 提出 的 融合 统计 学 习 与 语义 过 
滤 的 药物 不 良 事件 提取 方法 (SL + SF)。 表 5 显示 了 
三 种 不 同方 法 提取 药物 不 良 事件 的 性 能 结果 。 

表 5 三 种 不 同方 法 提取 药物 不 良 事件 的 性 能 结果 


方法 Precision(% ) Recall (% ) F1(% ) 

CO 37.7 100.0 54.8 

SL 64.2 60.4 62.2 
SL+SF 78.6 60.4 62.2 


比较 结果 显示 ,本文 提 出 的 方法 可 以 显著 提高 药 
物 不 良 事件 提取 的 准确 率 和 F 度量。 统计 学 习 有 助 于 
提高 准确 率 , 同 时 导致 召回 率 的 下 降 ; 语 义 过 滤 进 一 步 
提高 准确 率 , 而 对 召回 率 不 产生 影响 。 本 文 方法 的 准 
确 率 比 共 现 分 析 方 法 高 出 约 31% ,上 度量 值 高 出 约 
10% 。 共 现 分 析 方 法 的 准确 率 主要 取决 于 数据 集 的 质 
量 。 由 于 用 户 在 健康 社区 不 仅 讨论 药物 治疗 的 效果 ， 
还 会 叙述 诊断 .症状 ,药物 的 适应 证、 服药 原因 等 内 容 
多 样 的 主题 ,在 他 们 的 讨论 中 有 时 可 能 涉及 大 量 的 药 
物 名 称 ,这 导致 共 现 分 析 方 法 的 准确 率 偏 低 。 然 而 ,对 
于 药物 警戒 研究 ,更 准确 地 捕获 ADR 信和 号 比 获得 大 量 
虚假 的 报告 更 有 意义 。 本 文 提 出 的 方法 可 以 提高 从 社 
交 媒 体 抽取 ADR 信和 号 的 准确 度 ,提高 健康 社会 媒体 药 
物 不 良 事件 报告 的 质量 。 

笔者 还 注意 到 ,采用 基于 最 短 依存 路 径 核 函数 的 统 
计 学 习 方 法 时 ,召回 率 会 有 所 下 降 ( 从 100% 降 至 约 
60% ) ,这 是 由 于 长 名 的 关系 实例 中 检测 关系 的 错误 引 
起 的 。 这 些 长 句 的 关系 表示 在 已 标注 数据 中 出 现 的 次 
数 较 少 ,从 而 导致 低 的 学 习 率 和 召回 率 。 这 个 问题 可 以 
通过 结合 主动 学 习 ( 一 种 机 器 学 习 形式 ) 来 解决 ,该 方法 
可 以 决定 哪些 关系 实例 应 该 被 标注 以 得 到 更 好 的 抽取 

大 量 错误 的 药物 不 良 事件 不 能 通过 共 现 分 析 的 方 
法 过 滤 掉 ,笔者 提出 的 模型 可 以 更 有 效 地 在 社交 媒体 
中 抽取 ADR 信号 ,大 大 降低 了 社交 媒体 数据 的 嗜 杂 
元 余 ,提高 获得 患者 报告 药物 不 良 事件 的 准确 率 。 


5 总结 与 展望 


社交 媒体 的 出 现 为 医疗 保健 数据 的 收集 提供 了 新 
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的 途径 ,应 用 自然 语言 处 理 技术 从 社交 媒体 中 抽取 患 
者 报告 的 ADR 信号 对 于 改善 药物 警戒 的 临床 和 科学 
ee a re edema 
报告 的 ADR 信和 号 仍然 是 医学 信息 学 研究 面临 的 重大 
挑战 。 
笔者 开发 了 一 个 利用 高 级 自然 语言 处 理 技术 抽取 
患者 报告 的 ADR 信号 的 研究 模型 。 该 模型 包括 患 
讨论 的 药物 和 事件 的 医学 实体 识别 .药物 不 良 事件 关 
系 抽取 ,报告 源 分 类 三 个 主要 组 成 部 分 。 药 物 和 事件 
的 医学 实体 识别 采用 基于 多 词典 源 的 医学 实体 识别 方 
法 ,应 对 社交 媒体 用 户 网 络 语言 表达 的 多 样 化 和 口语 
化 问题 。 采 用 基于 最 短 依存 路 径 核 函数 的 统计 学 习 方 
法 抽取 实体 关系 ,然后 采用 基于 医学 知识 与 规则 的 语 
义 迁 渡 方 法 进一步 提高 药物 不 良 事件 关系 抽取 的 准确 
诬 * 漫 后 ,利用 报告 源 分 类 区 分 患者 实际 体验 的 药物 不 
民 吝 件 和 传闻 。 为 了 评估 所 提 模 型 的 性 能 ,通过 收集 
讲 伦 坛 上 的 数据 对 模型 的 有 效 性 进行 验证 ,结果 显示 
种 型 的 每 一 部 分 都 有 助 于 其 整体 性 能 的 提升 。 将 模 
于 分 析 不 同 疾病 的 治疗 和 提取 其 它 相 关 主 题 社 
区 器 体 的 患者 报告 内 容 将 是 信 今后 研究 的 方向 。 
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The Study of Adverse Drug Reaction Signal Extraction Framework Based on the 
Integrated Statistical Learning and Semantic Filter 
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Abstract: | Purpose/significance | The emergence of social media provides a new way to collect healthcare data. By 
using natural language management technology , the adverse drug reaction( ADR ) signal can be extracted from social media, 
it has great potential to improve the clinical and scientific knowledge of ADR monitoring. However, the extraction of ADR 
from patients ”reports in the social media is still a major challenge. This paper puts forwards an adverse drug reaction sig- 
nal extraction framework based on advanced natural language processing techniques. [| Method/process | The ADR signal 
extraction framework include the following implementation steps: Firstly ,it recognizes the medical entity from the noisy so- 
cial media based on multi-dictionary sources matching. Secondly, it applies statistical learning based on the shortest de- 
peiitdency path kernel to extract the adverse drug events. Then, filtering the information on the treatment and application of 
dea as well as negative drug adverse events by though the semantic knowledge of the drug safety database. Finally ,in or- 
d@ MY remove rumors and other noise information , We should categorize the source of the report. [ Result/ conclusion | We 
ca data from BBS diabetes to identify the validity of the model ,the result shows that each part of the model contributes 
to it§ overall performance. 
C jKeywWords : medical entity recognition adverse drug event extraction health social media statistical learning se- 
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